EfficientML.ai Lecture 15Long-Context LLM
Context Extension
先介绍了长度外推的相关工作RoPE和LongLoRA,与我们工作关系度不大,所以只是大概了解了一下这两个工作。
Evaluation of Long-Context LLMs
The Lost-in-the-Middle Phenomenon
LLM如何有效地利用长上下文的信息
相关信息出现在开头和结尾,准确率比较高;假如相关信息出现在中间,准确率比较低。
所以长上下文相比速度快,更加需要解决的一个问题就是:长文本情况下的有效性问题
Long-Context Benchmarks
Needle In A Haystack
在文档的不同地方插入信息,并在最后进行询问
LongBench
有关长上下文问题的更全面评估的benchmark,包含6个任务类型的21个数据集,支持13000+tokens的上下文,并使用F1和ROUGE等指标自动评估。
scaled position embeddings可以增加长上下文理解
Efficient Attention Mechanisms
本章节介绍一些有效的Attention机制
KV Cache内存占用问题
对于长度为2000的上下文,内存占用消耗为:
StreamingLLM
StreamingLLM并不能无限生成,则会遇到另外一个问题,已逐出的token包含的信息无法再被考虑到了,所以就引出他们另外一个工作:DuoAttntion。
DuoAttention
详见